查看原文
其他

FlagEval 天秤大模型评测体系及开放平台,打造更全面的引领性评测基准

智源研究院 智源研究院 2023-08-19

FlagEval (天秤)语言大模型评测体系建立了“能力-任务-指标”三维评测框架,目前涵盖了 22 个主观和客观评测集,84433 道题目,细粒度刻画大模型的认知能力。


“悟道 · 天鹰” AquilaChat-7B 对话模型,在 FlagEval 评测榜单上暂时在“主观+客观”评测维度领先其他同参数量级别的开源对话模型。如下图所示,在当前最新评测结果中,AquilaChat 以大约相当于其他模型 50% 的训练数据量(SFT 数据+预训练数据分别统计)达到了最优性能。

但由于当前的英文数据仅训练了相当于 Alpaca 的40%,所以AquilaChat 在英文的客观评测上还暂时落后于基于 LLaMA 进行指令微调的 Alpaca。随着后续训练的进行,相信很快可以超越。


图注:在评测时,FlagEval 根据数据集的不同规模进行了自动化采样,总计采样 28041 条数据。
悟道·天鹰 Aquila 模型还在迭代进步的过程中,天秤 FlagEval 评测能力也在不断的扩充中,因而此评测结果只是暂时的,新的评测结果还会不断更新。由于评测数据集的规模限制,评测结果也会存在一定的局限性,后续我们也会尽可能地关注评测数据集的多样性、完善数据集的构建方法和评测方式;评测体系方法及相关研究还在继续深入,当前对模型能力的覆盖程度仍有很大的进步空间,能力框架正在进一步完善中。



FlagEval(天秤)是智源研究院推出的大模型评测体系及开放平台,旨在建立科学、公正、开放的评测基准、方法、工具集,协助研究人员全方位评估基础模型及训练算法的性能,同时探索利用AI方法实现对主观评测的辅助,大幅提升评测的效率和客观性。

FlagEval(天秤)目前已推出语言大模型评测、多国语言文图大模型评测及文图生成评测等工具,并对各种语言基础模型、跨模态基础模型实现评测。后续将全面覆盖基础模型、预训练算法、微调算法等三大评测对象,包括自然语言处理(NLP)、计算机视觉(CV)、音频(Audio)及多模态(Multimodal)等四大评测场景和丰富的下游任务。

01

大模型评测需要新坐标


自OpenAI发布ChatGPT以来,大语言模型领域呈现出百花齐放的态势,技术发布甚至以周为单位更新。然而,随着新模型的快速出现,评测方法和工具的研究却相对滞后,使得需求方难以找到适合自己的模型。同时,生产侧也需要更公正的标准来评估模型的优缺点,以便研究人员持续优化模型。

 *当前大模型评测的难点在哪里?

1.大模型潜力难评,传统基准失效

从严格的角度来看,当前的大语言模型(LLM)可以分为两类:

  • 基础模型:这类模型从零开始,利用大量语料进行预训练,模型参数规模通常可达十亿级别,训练时间和算力成本都相当高昂。例如,GPT3、LLaMA,以及智源刚刚发布的Aquila等。

  • 微调模型:这类模型在基础模型之上进行微调,包括人类反馈监督学习(RLHF)。例如,ChatGPT(GPT3.5)、基于LLaMA微调的Alpaca,以及智源AquilaChat等。

普遍的观点认为,基础模型在很大程度上决定了微调模型的能力。有些人甚至认为,微调模型所具备的知识在基础模型的预训练阶段已经全部习得,微调模型的能力实际上是“被激发后的”基础模型的能力。

基础模型可以被视为一个庞大的知识库,其规模大、构成复杂,并具有待开发的“潜力”,但我们尚无法确定这种“潜力”的具体形式和上限。

以一个实际的例子来说明,假设A模型是F1赛车,B模型是公交车。在传统基准上对它们“是否能准确到达C地点”这项任务进行评测,结果分别是99.95%和99.97%。看起来A模型和B模型都表现优秀,但这个数据并不能反映出F1赛车在“到达目的地所用时间”上的潜力和公交车在“载客能力”上的潜力。

同时,传统的评测方法在基础模型评测上正面临失效的问题。

斯坦福大学发布的论文《Holistic Evaluation of Language Models》指出了在CNN/DailyMail、XSUM两个传统评测基准上的指标失效情况。如下图所示,人类对模型输出打出的分数高于人类对数据集参考答案打出的分数,因此 Gound Truth 失效,导致评测结果不可靠。另外,实验结果显示文本摘要的自动评测指标ROUGE-2 与人工评估的结果相反,也进一步说明的评测指标的失效。


此外,传统评测基准有明显的“任务为先”思维。在小模型的时代,每个模型都专门针对特定的下游任务进行训练和优化,导致模型评测主要从“任务”角度建立框架和基准。然而,实际上,基础模型及其微调模型已经具备了通用能力,突破了任务的限制,在多个下游任务中同时达到最先进的水平。此外,完成一项任务往往涉及多种能力,例如,提到的经典的文本分类任务可能涉及信息提取、信息分析、知识推理等多种能力。

而在指标层面,单一准确性指标无法全面反映模型完成任务的潜力,引入效率、鲁棒性、不确定性等指标综合衡量模型的潜力是非常有必要的。

2.“大船”难掉头,评测急需与训练结合

大模型训练成本高昂,每天大约10万以上的算力+人力成本,对于绝大部分研发团队来说,这样的试错成本是难以承受的。因此,必须在训练过程中结合评测结果,对训练策略进行及时调整,包括训练细节、甚至对训练数据进行及时调整。


3.缺乏广泛对比评测的权威中立榜单

随着模型参数量变大,模型评测所需的算力成本也变得愈发高昂,大多数科研团队和企业受限于紧张的算力资源,无法进行广泛的模型对比评测。一个广泛对比评测的、权威中立榜单,对于大模型在产业落地层面的选型来说,至关重要。

02

解读 FlagEval(天秤)开放评测平台


FlagEval(天秤)平台目前已推出语言大模型评测、多语言文图大模型评测及文图生成评测等工具,并对各种语言基础模型、跨模态基础模型实现评测。后续将全面覆盖基础模型、预训练算法、微调算法等三大评测对象,包括自然语言处理(NLP)、计算机视觉(CV)、音频(Audio)及多模态(Multimodal)等四大评测场景和丰富的下游任务。


当前对外开放评测申请的 FlagEval(天秤)语言大模型评测体系,创新构建了“能力-任务-指标”三维评测框架,细粒度刻画基础模型的认知能力边界,可视化呈现评测结果,当前包括 30+能力 x 5大任务 x 4大指标,总计 600+子维度,任务维度包含 22 个主观&客观评测集,84,433道评测题目,更多维度的评测数据集正在陆续集成。


1.三维评测框架


1.1 能力框架:刻画模型认知能力边界


  • 基础语言能力简单理解(信息分析、提取概括、判别评价等)、知识运用(知识问答、常识问答、事实问答)推理能力(知识推理、符号推理)。


  • 高级语言能力特殊生成(创意生成、代码生成、风格生成,修改润色等)、语境理解(语言解析、情境适应、观点辨析等)。


  • 安全与价值观安全方面包括违法犯罪、身体伤害、隐私财产、政治敏感、真实性检验;价值观方面包括歧视偏见、心理健康、文明礼貌、伦理道德。

  • 综合能力通用综合能力领域综合能力

1.2 任务框架:细化任务的“能力”标签

通过“任务”与“能力”解耦 , 每个任务对应多样化的能力,并通过多样化的数据集来评定。目前包含 22 个主观&客观评测集,84,433道评测题目,后续将根据能力框架继续扩展数据集种类和数量。

除了知名的公开数据集 HellaSwag、MMLU、C-Eval等,FlagEval 还集成了包括智源自建的主观评测数据集 Chinese Linguistics & Cognition Challenge (CLCC) ,北京大学与闽江学院共建的词汇级别语义关系判断、句子级别语义关系判断、多义词理解、修辞手法判断评测数据集。更多维度的评测数据集也在陆续集成中。

1.3 指标框架:不同任务有不同的侧重指标

FlagEval v0.5 版本仅支持准确性(Accuracy)指标。后续将持续更新迭代。

通过“指标”和“能力”解耦,每个数据集都可以用不同指标评测模型的具体能力。FlagEval 语言大模型评测将采用准确性(Accuracy)、不确定性(Uncertainty)、鲁棒性(Robustness)效率(Efficiency)。比如,经典的 MMLU 数据集在 FlagEval 的指标框架下,既可以测准确性也可以测不确定性和鲁棒性。

2.主客观结合的评测方式

针对基础模型与微调模型采用不同的评测方式

  • 基础模型评测以“适配评测+提示学习评测”的客观评测为主。

    适配评测主要考察基础模型在固定选项下的选择能力,我们参考了 Language Model Evaluation Harness 框架,将评测能力扩展到了中文能力上。

    提示学习评测主要考察基础模型在体质学习下的开放生成能力,我们参考了HELM评测框架,将评测能力扩展到了中文能力上。

  • 微调模型评测将先复用基础模型的客观评测,考察微调过程是否对基础模型造成了某些能力的提升或下降。然后再引入主观评测。

    人工主观评测:在人工创建的主观问题上,采用“多人背靠背标注+第三人仲裁”,多人背靠背标注也会采用GPT-4标注的方式增加多样性。

    自动主观评测:在GPT-4根据能力框架创建的主观问题上,采用GPT-4自动化标注的方式进行标注。

主观评测、客观评测各有其优势和局限性,对比如下:


3.支持自动化评测与自适应评测

FlagEval 打造了自动化评测机制:
  • 部署推理服务,主观评测&客观评测全自动流水线
  • 各阶段自动监听,推理服务到评测全自动衔接

自适应评测机制,实现评测结果指导的模型训练:
  • 用户可根据模型类型和状态选择评测策略,平台将整合评测结果
  • 评测开始结束和评测错误等全周期事件的自动通知告警


4.支持多芯片、多框架评测

FlagEval(天秤)支持多芯片、多框架评测,尤其支持国产芯片和深度学习框架在大模型创新进程中落地。

  • 多种芯片:现支持英伟达、昇腾(鹏城云脑)、寒武纪、昆仑芯,后续将支持更多芯片
  • 多种深度学习框架:现支持 PyTorch、MindSpore 框架,后续将支持更多深度学习框架

03

持续扩充评测能力,做好大模型创新的助推器


FlagEval 评测体系方法及相关研究还需要继续深入,当前对模型能力的覆盖程度仍有很大的进步空间,能力框架还需要进一步完善。目前主观评测尚未覆盖的能力维度,如“领域综合能力”和“通用综合能力”,也会在下一个版本中进行迭代升级。FlagEval 还将持续探索语言大模型评测与心理学、教育学、伦理学等社会学科的交叉研究,以期更加全面、科学地评价语言大模型。


智源也期待与多方合作,共同打造全面、科学的评测方法体系。作为“科技部2030”旗舰项目”重要课题,FlagEval(天秤)也正与北京大学、北京航空航天大学、北京师范大学、北京邮电大学、闽江学院、南开大学、中国电子技术标准化研究院、中国科学院自动化研究所等合作单位共建(按首字母排序)。


未来 FlagEval(天秤)将继续做好“AI大模型创新的助推器”,以评促“优”、以评促“用”、以评促“享”。


1.以评促“优”:提供详尽的评测结果和分析,帮助研究人员和开发者了解模型的优势和不足,从而进行有针对性的优化。


2.以评促“用”:提供多领域、丰富的下游任务的评测,用户可以参考评测结果,根据自己的需求选择最适合的模型和算法。


3.以评促“享”:秉持“开源开放”的精神,鼓励研究人员和开发者评测、分享他们的模型和算法。评测结果优秀的模型和算法可进一步集成至 FlagAI(github.com/FlagAI-Open/FlagAI),通过开源平台与全球的研究人员和开发者交流和共建。


FlagEval(天秤)评测平台

https://flageval.baai.ac.cn


开源评测工具

https://github.com/FlagOpen/FlagEval





您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存